15 de febrero de 2023

  • En 1962 se publicó “The Future of Data Analysis” (FoDA).
  • Se hablaba entonces de una nueva ciencia, una cuyo tema de interés es aprender de los datos.
John Tukey, autor de FoDA y uno de los estadísticos más importantes del siglo XX

John Tukey, autor de FoDA y uno de los estadísticos más importantes del siglo XX

Ciencia de los Datos (CD) vs. Estadística

  • “Data Science Initiative” (DSI) es un movimiento de la Universidad de Michigan anunciado en 2015 con un presupuesto de 100MDD.
  • Los estadísticos se sienten excluidos del “Data Science Movement”.
  • Para ellos, mucho de lo que representa CD no es nada nuevo.
  • Las definiciones tanto de DS como de la Estadística pueden ser en muchos casos intercambiables.

“Científico de datos” se refiere a un profesional que utiliza métodos científicos para liberar y crear significado a partir de datos sin procesar.

“Estadística” significa la práctica o la ciencia de recopilar y analizar datos numéricos en grandes cantidades.

  • Claramente hay muchas visiones de la CD y su relación con la estadística. A continuación se presentan algunos de estos temas recurrentes.

Big Data (BD)

  • BD no es algo exactamente nuevo. Por ejemplo: desde hace cientos de años se han ejecutado censos de población.
  • Los estadísticos siempre se han sentido cómodos con grandes conjuntos de datos como estos.
  • Dentro de la estadística se crearon herramientas para tratar con BD como lo son el “muestreo” y la “suficiencia”.
  • DS = BD no obtiene nada demasiado sustancial en las áreas involucradas.
Extracto del primer censo en EEUU en 1790

Extracto del primer censo en EEUU en 1790

Habilidades

  • CD se enfoca en BD, pero esta no puede ser acomodada en recursos computacionales normales.
  • Los cientificos de datos tienen las habilidades necesarias para lidiar con estos grandes conjuntos de datos.
  • Pero, ¿Son habilidades para resolver el problema real de inferencia?
  • En realidad se trata de habilidades para lidiar con artefactos como el computo distribuido a gran escala.
Hadoop y otras herramientas para cluster computing

Hadoop y otras herramientas para cluster computing

Empleos

  • Se ha creado una gran necesidad en el mercado labora por Científicos de Datos.
  • Pero, hay pocos puestos de CD reales para personas sin experiencia laboral.
  • El desarrollo de un buen científico de datos tomará dedicación y tiempo.
  • Los programas actuales de CD pueden no crear Científicos de datos preparados para todas las bases de datos, software y workflows que hay allá afuera.
Cantidad de posiciones CD entre 2010 y 2020

Cantidad de posiciones CD entre 2010 y 2020

¿Qué es real?

  • Los medios populares se han vuelto locos acerca de la CD.
  • Es comprensible ya que sí estamos presenciando algo nunca antes visto.
  • Lo cierto que si hay (y habrán) muchos datos allá afuera que esperan su procesamiento.
Principales blogs de tecnología

Principales blogs de tecnología

El Alcance completo de la Ciencia de los Datos

Las 6 divisiones

  • Eat spaghetti
  • Drink wine

Discusión

  • Get in bed

Enseñando una Mejor Ciencia de los Datos

Investigación en una Mejor Ciencia de los Datos

Los siguientes 50 años para la Ciencia de los Datos

Ciencia abierta

Ciencia como datos

Análisis Cientifico de los Datos

La Ciencia de los Datos en 2065

Referencias

¡Gracias por su atención!